【文献解读】Chemical Science 机器学习快速预测液相酸催化反应速率
背景介绍
生物质衍生分子转化为高附加值化学品通常是通过液相、酸催化反应进行。酸催化反应速率对溶剂组成高度敏感,并且水溶液中反应性较低。因此,可以通过将有机极性非质子助溶剂与水混合,形成混合溶剂环境来促进酸催化反应速率。已有研究表明,这种混合溶剂相对于纯水相,反应速率可提高100倍。但是,通过实验上的反复试错法来筛选溶剂耗时长且价格昂贵,对溶剂作用的具体机理也了解有限。传统的模拟计算,例如从头计算和分子动力学模拟,虽然能分别实现反应机理探究和长时间大尺度的模拟,但其价格也相对昂贵。
基于此,美国威斯康星大学的Reid C. Van Lehn助理教授团队开发了基于3D卷积神经网络(3D CNN)的SolventNet模型,对水-溶剂混合物中的7种生物质衍生的含氧化合物的实验反应速率及分子动力学模拟数据进行训练,并成功预测了酸催化反应速率。这种将机器学习和分子动力学模拟相结合的SolventNet模型相比以前的模拟方法快一个数量级,可以实现快速、高通量的溶剂筛选,并指导溶剂混合物的设计以实现有效的生物质转化过程。
图文解读
酸催化反应所选的模型体系
Fig. 1 Overview of solvent effects on acid-catalyzed reactions and model systems.
作者选取了108个文献所报道的酸催化反应用于本工作的机器学习训练。其中76组(占比70%,这些数据共构成18240个体素表达)用作训练集,32组(占比30%)用作测试集。每个测试集包含了7种生物质模型反应物:ETBE,TBA,PDO,LGA,FRU,CEL,XYL。所选助溶剂为:DIO,GVL,THF。混合溶剂包含了4种水的质量分数:25 wt%,50 wt%,75 wt%,90 wt%。每个测试集包含了4种反应物模型分子:TBA,FRU,PDO,GLU。助溶剂包括:DMSO,MeCN,ACE。训练温度范围是343-433 K,测试温度范围是363-433 K。为了比较混合溶剂与纯水的反应速率,作者定义了动力学溶剂参数(σ,混合溶剂中反应物脱水或水解速率常数korg与纯水中的表观速率常数kH2O之间的对数比)。
使用从经典MD中人为选定的描述符预测反应速率
图2展示了从分子动力学模拟获取描述符,从而预测动力学溶剂参数的方法。作者从分子动力学模拟轨迹中提取3个人为选定的描述符:(1)排斥系数Г,定义了反应物溶剂化层中的水含量;(2)反应物与水分子之间的平均氢键寿命τ,量化了水分子附近假定过渡态的稳定性;(3)可及羟基分数δ,用反应物羟基的溶剂可及表面积与分子总溶剂可及表面积之比反映反应物的亲水性。参数的具体定义可参考Energy Environ. Sci., 2018, 11, 617–628.
随后,研究人员将76个数据标签按4:1随机分成5个平行组,并将这3个描述符带入多描述符线性模型和多描述符神经网络模型中训练。拟合得到的多描述符线性模型和多描述符完全连接神经网络模型斜率分别是0.49和0.46,根均方偏差分别为0.58和0.62。理想模型的斜率通常为1,根均方偏差为0.1。这些模型对DIO-水混合溶剂预测较为准确,但对GVL-水混合溶剂预测准确性较低,说明线性模型的准确性较大程度上依赖于溶剂类型,因而其推广性有限。后续将全连接神经网络模型作为基准与3D CNN替代模型对比。
生成3D CNN模型的输入数据集
为了提高人为选定描述符模型的准确性,作者假设了三维卷积神经网络(3D CNNs)能够建立经典分子动力学中原子位置与反应速率之间的关系。图3说明了将MD原子位置转换为体素表达的过程。
3D CNN减少模拟时间,提高反应速率预测效率
图4中SolventNet模型体系结构由四个卷积层,两个最大池化层和三个完全连接层组成,得到的模型斜率达到0.89,根均方偏差缩小到0.37,说明准确性比多描述符模型大大提升。并将SolventNet模型的根均方偏差与线性模型Linear、完全连接神经网络NN、ORION和VoxNet模型对比,准确性相当。此外,与传统MD模拟相比,SolventNet模型大概缩短了10倍的实际模拟时间。
SolventNet模型对新溶剂和反应物的通用性
Fig. 5 Generalizability of SolventNet to new reactants and cosolvents.
图5表示的是使用SolventNet模型训练测试集所得到的拟合结果。最佳拟合斜率是0.72,根均方偏差RMSE是0.48。这表明尽管训练集的预测准确性有所降低,SolventNet的推广效果仍然很好。值得注意的是,测试集准确性超过了多描述符模型的验证集准确性。测试集结果也表明,SolventNet对于DMSO-水混合物的RMSE为0.43表现良好。
基于上述分析,由于多描述符模型对THF-和GVL-水溶液的准确性较低,作者还使用了Leave-one-out交叉验证法来确定SolventNet预测是否对训练集中包含的特定反应物或助溶剂敏感。这些结果表明,除了LGA以外,SolventNet的预测在各种混合溶剂环境的预测结果都具有普适性,其中包括线性多描述符模型预测不佳的THF-和GVL-水混合溶剂。
SolventNet模型的物理性解释
虽然,SolventNet模型可以提高预测准确性和计算效率,但是很难用物理方式解释模型提取的特征。比如,代表不同反应物-溶剂组合的体素表达在视觉上没有直观的特征。因而,作者生成了显著图来可视化SolventNet预测对不同体素的敏感度。显著图由每个体素的显著性值(在0–1之间归一化)组成,这些值可以指示SolventNet预测对该体素中水、反应物、助溶剂原子的敏感程度。在图7中,显著图按照反应物、水、助溶剂被划分为单独的三维体素网格。通过将Z轴方向的显著性值取平均,三维显著图被投影成二维等高线图。结果表明,反应物附近的区域对预测最为重要。只要模拟体积的大小足够大,远离反应物的区域并不重要。通过识别要研究的重要溶剂区域,相似的显著性图可能有助于指导未来的从头计算,从而最大程度地减少了量子化学计算所需的分子数量。
总结
作者将机器学习与经典的MD模拟相结合,开发了基于三维卷积神经网络(3D CNN)的SolventNet模型,可以将经典MD模拟数据转换成体素表达,用于预测非质子助溶剂和水的混合物中的酸催化反应速率。这种模型的显著优点是计算效率高,SolventNet只需低至4 ns的MD模拟数据即可预测单个反应物与溶剂组合的反应速率。
目前的模型的输入仅考虑了MD模拟得到的反应物的体素表达,未来可以进一步研究引入产物的体素表达是否可以提高反应速率预测的准确性以及预测反应选择性。
目前为止,所有研究的体系都涉及的是水和极性非质子助溶剂的混合物,未来可以拓展SolventNet模型以预测离子液体等其它溶剂中的反应速率。
原文链接:
https://doi.org/10.1039/D0SC03261A
Alex K. Chew, Shengli Jiang, Weiqi Zhang, Victor M. Zavala and Reid C. Van Lehn. Fast predictions of liquid-phase acid-catalyzed reaction rates using molecular dynamics simulations and convolutional neural networks. Chem. Sci., 2020, Advance Article.
往期推荐
【文献解读】韩布兴院士组Chem: C(OH) -C键的氧化裂解和酯化
【文献解读】 ACS Sustainable Chem. Eng:多功能铜-铼双金属催化剂上糠醛强化催化转移加氢制备2-甲基呋喃
【文献解读】ACS Sustainable Chem. Eng:非晶态FeNi-ZrO2催化木质素酚类制取液体燃料
【文献解读】Fuel: RuNi双金属催化愈创木酚的加氢脱氧反应
【文献解读】Green Chem.:5-羟甲基糠醛架构的生物炼制路线图